论文推荐|[TIP2020]基于深度特征相似性融合的少样本文符风格迁移
文本包含各种风格,包括字体,部首,笔划,阴影,轮廓,颜色,纹理,复杂的效果等。传统上,设计和装饰文本需要花费大量时间,当涉及到大量字符时,这些耗费可能会很昂贵。而在现实生活中,我们只能收集艺术家为特定用途而设计的一致风格化文本的子集,即标题,注释或徽标。这使得很难将观察到的文本风格转换为用于自己的项目的其他文本。此外,给定用于样式转换的文本内容,我们应该同时考虑侧重于字体样式转换的字体和用于各种颜色和效果渲染的纹理。在计算机视觉社区中,这两个领域中的任何一个都是重要且具有挑战性的研究分支[1],[2]。
大多数文本风格迁移方法都是基于印刷体(Typography)的,其重点是轮廓的几何建模[3]或字体样式迁移[4]。很少有方法可以生成具有基本效果(例如阴影,颜色)和更复杂的效果(例如渐变,条纹和精美装饰)的文本。文本字体和纹理合成被认为是不同的任务,需要分别处理。例如,基于补丁(Patch-based)的方法[5]从一个参考图像中提取补丁,并将其放置在目标字形图像上的适当位置。它需要参考和目标字符的轮廓形状图像来建立补丁对应关系。MC-GAN[6]首次提出端到端(End-to-end)的解决方案以进行文本风格迁移。它建立在两个级联的堆叠网络上,字形网络(Glyph Network)用于字体合成,装饰网络(Ornamentation Network)用于纹理合成。但是,堆栈体系结构的设计限制了其对包含大量字符(例如中文)的其他语言系统的推广。
本文提出了一种将两个网络组合在一个端到端网络中的方法来来合成字符,文本内容和样式特征分别通过两个高性能的卷积神经网络(CNN)提取。本文认为文本的内容和样式不是独立的,应该考虑不同字符之间的相似性。例如,如果任何示例字符中都没有曲线,则可能无法合成完美的“P”或“B”。因此,本文提出学习加权样式特征,这些特征是通过对每个示例字符与目标字符之间的相似性进行评分来衡量的。本文通过相同的CNN独立提取每个示例字符的样式特征,这种设计允许在数量上进行灵活的输入。
为了描述方便,进行一些形式化描述,IR:给定风格的字符,CR:给定的风格字符对应的标准字符,CT:目标字符对应的标准字符,标准字符:一组字符的全集,GC:生成字符。则本文的目标可描述为:
(1)中j表示Channel的索引,对(1)进行归一化,a是一个放缩的超参数:
根据相似性矩阵SM,以及fsi得到目标字符在特定风格特征上的特征表示:
本文首先实验不同标准字符集的选取对实验的影响:
然后,分别对比了将相似性融合替换为权重平均和级联:
分析了深度特征的相似性:
并得到一张26个字母在576个Channel上的平均相似度表格,并按照平均相似性排序:
接下来,本文和MCGAN,Patch-based等方法进行了对比:
同时,作者还验证了本方法在其他文字上的适用性:
本文提出了一种文本样式转换方法来合成仅包含少量参考字符的文本。两个共享相同体系结构的深度神经网络分别用于从目标字符中提取内容特征和从参考字符中提取单个样式特征。在MC-GAN数据集和我们收集的数据集上的实验结果证明了所提出的文本风格迁移方法的有效性和鲁棒性。在汉字上的实验表明,该方法可以应用于其他语言,并且表明字体样式的合成比纹理样式的转换更困难。未来的工作旨在执行更细粒度的深度相似性融合,以更好地在不同语言上进行文本风格迁移。
https://ieeexplore.ieee.org/abstract/document/9098082
编排:高 学
审校:连宙辉
发布:金连文
论文推荐| [CVPR 2020]ContourNet:更准确的任意形状场景文本检测新方法 论文推荐|[IEEE TIFS2020]编码Pathlet与SIFT特征的古籍笔迹鉴别(ICDAR19古籍笔迹识别竞赛冠军方法) 论文推荐|[IEEE CVPR 2020] SEED:用于场景文本识别的语义增强编解码器框架 论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络(附代码) 论文推荐|[AAAI 2020]文本感知器:面向端到端任意形状的文本识别 论文推荐|[AAAI 2020]FET-GAN:通过K-shot自适应实例规范化进行字体和效果转移(有源码) 论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别 论文回顾|[ICDAR 2019]DeepSignDB:大规模联机签名数据集 论文推荐|[CVPR 2020]UnrealText:基于虚拟场景的真实场景文本图像合成 论文推荐|[CVPR 2020]增广学习:面向文本行识别的网络优化协同数据增广方法
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)